Проверка статистических гипотез

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Проверка статистических гипотез является содержанием одного из обширных классов задач математической статистики[1].

Статистическая гипотеза — гипотеза о виде распределения и свойствах случайной величины, которое можно подтвердить или опровергнуть применением статистических методов к данным выборки[1].

Статистические гипотезы

Определения

Пусть в (статистическом) эксперименте доступна наблюдению случайная величина [math]\displaystyle{ X }[/math], распределение которой [math]\displaystyle{ \mathbb{P} }[/math] полностью или частично неизвестно. Тогда любое утверждение относительно [math]\displaystyle{ \mathbb{P} }[/math] называется статистической гипотезой. Гипотезы различают по виду предположений, содержащихся в них:

  • Статистическая гипотеза, однозначно определяющая распределение [math]\displaystyle{ \mathbb{P} }[/math], то есть [math]\displaystyle{ H:\;\{\mathbb{P}= \mathbb{P}_0\} }[/math], где [math]\displaystyle{ \mathbb{P}_0 }[/math]— какой-то конкретный закон, называется простой.
  • Статистическая гипотеза, утверждающая принадлежность распределения [math]\displaystyle{ \mathbb{P} }[/math] к некоторому семейству распределений, то есть вида [math]\displaystyle{ H:\;\{\mathbb{P}\in \mathcal{P}\} }[/math], где [math]\displaystyle{ \mathcal{P} }[/math] — семейство распределений, называется сложной.

На практике обычно требуется проверить какую-то конкретную и, как правило, простую гипотезу [math]\displaystyle{ H_0 }[/math]. Такую гипотезу принято называть нулевой. При этом параллельно рассматривается противоречащая ей гипотеза [math]\displaystyle{ H_1 }[/math], называемая конкурирующей или альтернативной.

Выдвинутая гипотеза нуждается в проверке, которая осуществляется статистическими методами, поэтому гипотезу называют статистической. Для проверки гипотезы используют критерии, позволяющие принять или опровергнуть гипотезу.

В большинстве случаев статистические критерии основаны на случайной выборке [math]\displaystyle{ (X_1,X_2,\dots,X_n) }[/math] фиксированного объема [math]\displaystyle{ n\geq 1 }[/math] для распределения [math]\displaystyle{ \mathbb P }[/math]. В последовательном анализе выборка формируется в ходе самого эксперимента и потому её размер является случайной величиной (см. Последовательный статистический критерий).

Пример

Пусть дана независимая выборка [math]\displaystyle{ (X_1,\ldots,X_n) \sim \mathcal{N}(\mu, 1) }[/math] из нормального распределения, где [math]\displaystyle{ \mu }[/math] — неизвестный параметр. Тогда [math]\displaystyle{ H_0:\;\{\mu = \mu_0\} }[/math], где [math]\displaystyle{ \mu_0 }[/math] — фиксированная константа, является простой гипотезой, а конкурирующая с ней [math]\displaystyle{ H_1:\;\{\mu \gt \mu_0\} }[/math] — сложной.

Этапы проверки статистических гипотез

  1. Формулировка основной гипотезы [math]\displaystyle{ H_0 }[/math] и конкурирующей гипотезы [math]\displaystyle{ H_1 }[/math].
  2. Задание уровня значимости [math]\displaystyle{ \alpha }[/math], на котором в дальнейшем и будет сделан вывод о справедливости гипотезы. Он равен вероятности допустить ошибку первого рода.
  3. Расчёт статистики [math]\displaystyle{ \phi }[/math] критерия такой, что:
    • её величина зависит от исходной выборки [math]\displaystyle{ \mathbf{X}=(X_1,\ldots,X_n): \; \phi=\phi(X_1,\ldots,X_n) }[/math];
    • по её значению можно делать выводы об истинности гипотезы [math]\displaystyle{ H_0 }[/math];
    • статистика [math]\displaystyle{ \phi }[/math], как функция случайной величины [math]\displaystyle{ \mathbf{X} }[/math], также является случайной величиной и подчиняется какому-то закону распределения.
  4. Построение критической области. Из области значений [math]\displaystyle{ \phi }[/math] выделяется подмножество [math]\displaystyle{ \mathcal{C} }[/math] таких значений, по которым можно судить о существенных расхождениях с предположением. Его размер выбирается таким образом, чтобы выполнялось равенство [math]\displaystyle{ P(\phi\in\mathcal{C})=\alpha }[/math]. Это множество [math]\displaystyle{ \mathcal{C} }[/math] и называется критической областью.
  5. Вывод об истинности гипотезы. Наблюдаемые значения выборки подставляются в статистику [math]\displaystyle{ \phi }[/math] и по попаданию (или непопаданию) в критическую область [math]\displaystyle{ \mathcal{C} }[/math] выносится решение об отвержении (или принятии) выдвинутой гипотезы [math]\displaystyle{ H_0 }[/math].

Виды критической области

Выделяют три вида критических областей:

  • Двусторонняя критическая область определяется двумя интервалами [math]\displaystyle{ (-\infty,\;x_{\alpha/2})\cup(x_{1-\alpha/2}\;+\infty) }[/math], где [math]\displaystyle{ x_{\alpha/2},\; x_{1-\alpha/2} }[/math] находят из условий [math]\displaystyle{ P(\phi\lt x_{\alpha/2})=\frac{\alpha}{2}, \quad P(\phi\gt x_{1-\alpha/2})=1-\frac{\alpha}{2} }[/math].
  • Левосторонняя критическая область определяется интервалом [math]\displaystyle{ (-\infty,\; x_\alpha) }[/math], где [math]\displaystyle{ x_\alpha }[/math] находят из условия [math]\displaystyle{ P(\phi\lt x_\alpha)=\alpha }[/math].
  • Правосторонняя критическая область определяется интервалом [math]\displaystyle{ (x_{1-\alpha},\;+\infty) }[/math], где [math]\displaystyle{ x_{1-\alpha} }[/math] находят из условия [math]\displaystyle{ P(\phi\lt x_{1-\alpha})=1-\alpha }[/math].

См. также

Примечания

  1. 1,0 1,1 Ивановский Р. Теория вероятностей и математическая статистика. Основы, прикладные аспекты с примерами и задачами в среде Mathcad. — 528 с. — (Учебное пособие). — ISBN 978-5-9775-0199-6.

Литература